Chigy ea s 


$8 63 卷 第 7 期 2019 4p 4 H 


TE d xo EE S HU 8 7 4 5B S RO 


E EU hE” 


' 中 国 科 学 院 文献 情报 中 心 ”北京 100190 


“中 国 科 学 院 大 学 经 济 与 管理 学 院 图 书 情 报 与 档案 管理 系 


北京 100190 


摘要 : [ 目的 /意义 ] 作者 主题 模型 作为 近年 来 计算 机 领域 关注 度 较 高 的 新 型 概率 模型 ,在 文本 挖 所 与 自然 
语言 处 理 等 方向 已 有 广泛 应 用 。 分 析 国内 外 作者 主题 模型 及 其 改进 的 思路 与 应 用 ,更 好 地 把 握 其 研究 现状 ,以 
期 为 计算 机 、 图 书 情 报 等 相关 领域 科研 人 员 提 供 参 考 。 [ 方法/ 过程] 本 文选 取 Web of Science 核心 数据 库 、 
DBLP 及 中 国 知 网 (CNKI) 数据库 作为 文献 来 源 ,通过 制定 检索 规则 、 去 重 及 人 工 判 读 等 操作 提炼 出 关于 作者 主 
题 模型 及 其 改进 方法 的 文献 集 , 从 模型 应 用 过 程 的 视角 ,结合 文献 分 析 法 对 现 有 研究 进行 总 结 归纳 。[ 结果 / 结 
论 ] 通 过 分 析 发 现 , 现 有 相关 研究 已 形成 较为 完整 的 分 析 流 程 , 且 模 型 的 改进 角度 、 适 用 领域 也 日 益 多 样 化 。 但 
惟 于 优化 、 杰 型 评价 指标 的 规范 完 首 以 及 在 图 书 情报 领域 的 进一步 应 用 等 方面 仍 有 待 深入 探索 。 
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计算 机 技术 的 飞速 发 展 、 社 交 媒 体 作用 下 社区 的 快 
速 连 接 , 同 时 ,数据 类 型 的 多 样 化 .数据 量 的 指数 级 增 
长 8 使 得 科研 人 员 对 大 规模 数据 的 信息 挖掘 已 不 再 满足 
玉 明 单一 主题 信息 来 代表 数据 集 的 特征 ,更 多 地 是 想 控 
掘 主题 与 用 户 的 关联 关系 ,进而 更 全 面 地 揭示 数据 集 所 
包 会 的 信息 ,发 现 其 背后 规律 。 基 于 此 ,科研 人 员 于 
200 和 4 年 提出 了 一 种 可 以 挖 气 文档 集中 隐 仿 作者 与 主题 关 
系 的 统计 模型 , 即 作 者 主题 (Author-Topic ,AT) 模 型 "。 

AT 模型 是 潜在 狄 利 克 雷 分 布 模型 ( Latent 
Dirichlet Allocation , LDA ) 的 扩展 ,继承 了 LDA 主题 模 
型 将 高 维度 的 词 集合 映射 到 低 维 度 的 主题 空间 ,进而 
实现 数据 降 维 。 同 时 ,将 数据 集中 的 作者 信息 作为 扩 
展 元 数据 融和 人 到 原 模型 中 ,使 得 数据 集中 的 作者 与 主 
题 建立 起 关联 ,为 挖掘 数据 集中 隐 含 的 “作者 - 主题 ” 
语义 信息 提供 了 可 能 ,有 助 于 科研 人 员 更 好 地 将 作者 
及 其 所 讨论 的 内 容 对 应 起 来 。 

随 着 模型 应 用 范围 的 不 断 扩大 ,任务 的 多 元 化 使 
得 简单 的 AT 模型 难以 满足 日 益 增 长 的 需求 ,如 对 社 
交 媒 体 数据 分 析 时 需要 考虑 时 间 属 性 等 。 基 于 此 , 科 
研 人 员 充 分 利用 AT 模型 良好 的 可 扩展 性 ,对 其 尝试 


改进 ,并 取得 了 一 定 突破 ,使 其 适用 范围 更 为 广泛 。 
笔者 通过 前 期 文献 调研 ,发 现 现 有 综述 文献 大 多 
是 对 主题 模型 为 源头 进行 总 结 归 纳 ,但 随 着 主题 模型 
的 发 展 ,使 得 由 各 种 主题 模型 的 改进 模型 所 组 成 的 模 
型 集合 十 分 宽泛 , 却 少 有 和 针对 于 以 “作者 - 主题 "为 脉 
络 的 一 系列 改进 模型 及 应 用 的 综述 。 同 时 ,大 部 分 综 
述 主 要 是 对 模型 原理 及 改进 的 时 间 顺 序 进 行 总 结 归 
纳 ,而 从 模型 具体 应 用 过 程 的 视角 进行 综述 则 相对 较 
少 。 因 此 ,本 文 将 立足 于 国内 外 有 关 AT 模型 的 现 有 
研究 ,采用 文献 分 析 及 归纳 总 结 法 ,深入 分 析 国 内 外 
AT 模型 及 其 改进 模型 的 方法 及 应 用 的 研究 现状 ,以 期 
为 相关 科研 人 员 提 供 参考 ,拓宽 研究 思路 。 


2 数据 来 源 及 概况 


2.1 数据 来 源 

为 保证 数据 覆盖 全 面 ,本 文 在 外 文 数据 库 的 选取 
上 除 Web of Science 核心 数据 库 外 ,还 选取 了 计算 机 领 
域 较 权 威 的 数据 库 DBLP (Digital Bibliography & Library 
Project) 。 两 者 收录 的 文献 虽 有 重合 ,但 仍 存 在 互补 。 
中 文 数 据 库 则 选取 了 中 国 知 网 (CNKI) 。 具 体 数据 获 
取 过 程 如 下 :QD 在 CNKI 数据 库 中 ,以 “主题 = “作者 ” 
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* (“主题 模型 ”+“LDA 模型 ") OR SU =“ 作 者 主题 
模型 ”OR SU = ‘ Author Topic 模型 '” 进行 专业 检索 ， 
文献 类 型 限定 为 期 刊 会议 及 学 位 论文 ;在 Web of Sci- 
ence 核心 合集 中 ,利用 “主题 = (“ Author * ”AND 
(“Topic Model * " OR “Latent Dirichlet Allocation" ) ) " 
进行 高 级 检索 ,文献 类 型 为 Article, Proceedings Paper 
及 Review; fE DBLP 中 以 "Author Topic Model ”为 主题 
词 进行 检索 。 以 上 检索 均 不 限时 间 跨 度 ,检索 日 期 为 
2018 年 5 月 25 日 ,分 别 检索 出 174 篇 中 文 文献 ,360 篇 
外 文 文献 。@ 对 上 述 3 个 数据 集 进 行 清洗 , 噜 除 无 效 
文献 ,删除 重 受 文献 。@ 人 工 判读 ,选取 符合 主题 的 文 
献 ,最 终 盘 选 出 139 篇 文献 (96 篇 外 文 文献 ,43 篇 中 文 
文献 ) 作 为 本 文 重点 分 析 对 象 。 

23 数据 概况 
之 关于 AT 模型 及 其 改进 模型 的 139 篇 研究 论文 中 ， 


Er > 数据 清洗 > 模型 构建 > 模型 评估 | 


图 2 AT 模型 及 其 改进 方法 与 应 用 研究 的 分 析 流程 


术 论文 "数据 集 类 型 数量 位 居 首 位 ( 共 17 类 ) ,对 其 又 可 
进一步 细 化 为 5 小 类 :中 专业 领域 数据 库 (DBLP、Pub- 
Chem MEDLINE „PubMed Central, ACM Digital Library ) ; 
(25 | 3C 9| A Af ( Scopus , CiNii , NIPS , CiteULike , Citese- 
er 万 方 CNKI , Web of Science) ; Q) fli EJ ZI XC i PE ( Arx- 
iv) ; ^F R18 2&5 | S ( Ametminer „Microsoft Academic Re- 
search) ;(5) 评 测 会 议 及 语料库 (TREC)。 另 外 ,文本 类 数 
据 集中 除 学 术 论 文 这 一 大 类 外 ,还 包括 社交 网 站 、 邮 件 ， 
而 影像 类 数据 集中 除 部 分 开放 获取 的 数据 外 ,还 包含 学 
校 监 控 视 频 等 非 开 放 获取 资源 。 
表 1 数据 集 类 型 分 布 


C 数据 类 型 子 类 数据 集 名 称 
人 包 多 3 篇 综述 类 文献 ,46 篇 方法 研究 类 文献 ,83 篇 应 文本 类 数据 集 ”学 术 论 文 ”DBLPL5] TREC 
Ri xci 篇 在 实验 环节 将 AT 模型 作为 对 照 组 的 文 PubChem[6-9] MEDLINE 10 - 117 
献 习 图 1 为 139 篇 文献 的 年 代 分 布 。 由 图 1 可 知 5 AT Scopus! 122 PubMed Central 
BERTA 2004 年 被 提出 后 ,国内 对 该 模型 进行 研究 且 有 mum 
] [15] rxivl 16] 
PRE ^ HT 2008 年 ” 。 从 发 文 趋势 上 看 ,其 Mo : B 
A 、 n T iteULike Web of Science! t74 
被 8 注 度 整体 呈 上 升 趋势 ,相关 研究 在 2013 - 2017 年 a 
期间 的 关注 度 先后 迎 来 两 次 小 高 峰 。 根 据 上 述 数据 可 D n 
A gi y 
Vibe T AT 模型 的 相关 研究 在 今后 一 段 时 间 内 仍 m 
BETRI EAE. Research 120-21 
» p 社交 网 站 perverted - justice. delicious. com 
:om E22] 
a 21 com 
c J IRC logs ProgrammableWeb. 
s — 15 d com 
- * H 天 涯 论坛 123] mooc. guokr. com 24) 
: 6 * NLPIR Yahoo 
| ; , 
P A 3 新 浪 微 博 Wikipedia 257 
r iniz? : Wit d 
2004 2005 2006 2007 2008 2009 2010 20112012 2 Twitter 26) Tripadvis 271 
年 份 digg[28] 
英文 期 刊 各 英文 会 议 及 论坛 闪 中 文 期 刊 ” 和 中 文学 位 论文 邮件 Enron[29] 
影像 类 数据 焦 EIS ickr E301 
VIPeR 211 CASIA 
3 ft L5 xt 展 分 析 BrainMap Weizmann 
DECODAL32 -33] IMDB 
AT 模型 的 改进 与 应 用 研究 的 分 析 流程 如 下 ( 见 ien MN 
图 2) :首先 ,确定 待 分 析 的 原始 数据 集 及 数据 类 型 ; 然 LIVE IQA Google Earth 134] 
后 ,对 文本 预 处 理 结果 进行 建 模 并 求解 ;最 后 ,选择 评 非 开 放 获 到 ”医院 数据 库 学 校 监控 视频 [35] 


价 指标 ,通过 对 比 实验 对 模型 进行 评 佑 。 本 文 将 基于 
该 流程 对 现 有 研究 方法 进行 总 结 分 析 。 
3.1 数据 集 选 取 

经 过 总 结 归纳 ,国内 外 基于 AT 模型 的 改进 与 应 用 
研究 所 选用 的 数据 集 主 要 分 为 6 类 ( 见 表 1)。 其 中 ， 学 
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注 :本 分 类 是 基于 数据 集 在 作者 主题 模型 相关 实验 研究 中 ,将 被 
抽取 的 数据 对 象 的 类 型 进行 归纳 ,而 非 数据 集中 所 有 的 数据 类 型 ,如 
Flickr 本 身 为 社交 平台 ,同时 包含 图 像 .文本 类 型 的 数据 ,但 在 AT 模 
型 所 涉及 到 的 实验 中 通常 选取 其 图 像 数据 进行 分 析 , 故 被 归 为 影像 
大 类 ,而 非 文本 大 类 
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[J]. 图 书 情报 工作 ,2019 ,63(7):135 - 145. 


确定 数据 集 后 ,需要 进一步 提取 目标 数据 字段 。 
学 术 论 文 类 数据 集 通常 包括 文献 标题 .作者 .摘要 及 时 
间 。 针 对 不 同 研究 内 容 , 科 研 人 员 所 提取 的 数据 字段 
也 存在 一 定 差异 。 除 上 述 A 种 字段 外 ,部 分 研究 还 提 
取 引 文 ,期刊 及 会 议 信息 等 字段 ,以 研究 作者 研究 兴趣 
的 变迁 学术 论文 推荐 ” .学 术 领 域 专家 社区 发 
现 ” 特定 学 科 领 域内 作者 主题 识别 ”等 ;对 于 影像 
类 数据 集 ,选取 特定 分 辩 率 的 图 像 及 视频 片段 ,实现 图 
像 及 视频 的 主题 识别 -9 ,挖掘 脑 认 知 功能 的 空间 对 
应 关系 [等 ;对 于 社交 网 站 类 数据 集 ,通常 提取 推 文 
正文 , 挖 气 用 户 兴趣 “- ;对 于 邮件 类 数据 集 ,通常 提 
取 收 件 人 ,邮件 主题 ,内容 .时 间 等 字段 ,实现 发 件 人 与 
主题 .时 间 的 关联 加 -5 。 

3e 数据 清洗 

六 效 取 目标 数据 字段 后 , 需 对 其 进行 数据 预 处 更。 
Hh VE Zr nb ( author disambiguation ) 将 对 实验 结 
PARBAT MEHI B M P ACER — 
EPA BE, A A ek 4 t d s — Rees PR 8, BD e] — ffe 
者 姓名 的 多 种 写法 ,该 类 问题 常 出 现在 英文 文献 中 ,与 
姓名 缩写 问题 相关 联 。 在 实际 操作 中 ,大 多 是 结合 作 
着 刀 箱 、 工 作 单位 及 合 著 关系 等 属性 特征 来 对 作者 进 
FEDE ,同时 可 进一步 借助 外 部 网 络 信息 提高 消 虐 
准 询 度 " 。 具 体 可 将 作者 消 歧 方法 分 为 无 监督 学 习 
与 看 监 督学 习 两 大 类 。 其 中 ,无 监督 学 习 方法 包括 图 


认 扫 洒 交 ,前 者 通过 构建 网 络 图 将 作者 问 的 关系 进行 


联 。 每 个 作者 可 以 通过 多 项 分 布 矩阵 映射 至 隐 含 主题 
上 ,每 个 主题 的 描述 可 通过 词语 层 上 的 多 项 分 布 实现 ， 
文档 可 通过 主题 空间 上 的 作者 混合 分 布 完成 建 模 。 
AT 模型 的 生成 过 程 如 下 : 

对 于 一 个 文档 集 D 中 的 每 篇 文档 deD: 

第 一 ,选取 0( 作 者 主题 概率 分 布 ) ~ Dirchlet(a) ; 

第 二 ,选取 B( 主 题词 概率 分 布 ) ~ Dirchlet(5) ; 

第 三 ,对 于 4d 中 的 每 个 词 w: 

(a) f£ d 的 作者 集 a, 中 采用 均匀 分 布 以 指定 一 个 
作者 x; 

(b) 根 据 作者 主题 概率 分 布 x ~ Multi(x,0) ,指定 
一 个 主题 z; 

(c) 根 据 主题 词 概率 分 布 z ~ Multi(z,B) ,指定 一 
个 词 w。 
由 该 生成 过 程 可 知 ,AT 模型 中 的 每 位 作者 对 应 一 
个 主题 上 的 分 布 , 且 所 有 作者 共享 一 个 主题 集 
人 [58 -60] 
3.3.2 扩展 的 AT 模 型 虽然 作者 信息 的 加 入 使 LDA 
模型 由 无 结构 化 信息 改 为 结构 化 信息 ,使 得 主题 模型 
可 同时 分 析 用 户 兴 趣 分 布 与 文档 结构 ,但 依然 存在 一 
些 缺陷 1 。 近 年 来 , 随 着 文本 挖掘 技术 的 发 展 ,科研 
人 员 进 行 了 一 系列 的 变形 与 扩展 。 下 文 将 从 基于 时 间 
因素 、 有 监督 学 习 方法 、 元 数据 扩展 以 及 面向 特定 任务 
4 个 方面 对 基于 AT 模型 的 改进 进行 总 结 。 

(1) 基 于 时 间 因 素 的 改进 。 随 着 AT 模型 的 深入 


连 秋 , 计 算 节 点 间 的 拓扑 距离 ,进而 判断 同名 作者 是 否 
为 同一 个 人 。 后 者 通过 衡量 相似 度 ,将 所 有 可 能 指向 
同 加 作者 的 同名 作者 聚 为 一 类 ,而 聚 类 方法 的 选择 及 
同名 作者 间 相 似 度 函 数 的 定义 是 影响 聚 类 效果 的 关 
键 55] 。 有 监督 学 习 方 法 主要 指 基于 概率 模型 的 方法 。 
该 类 方法 通常 需 建 立 诸如 贝 叶 斯 网 络 、 条 件 随 机 场 等 
复杂 概率 模型 ,通过 统计 计算 ,推理 得 到 重 名 作者 间 的 
匹配 关系 。 
3.3 ”模型 构建 

完成 数据 清洗 等 操作 后 ,根据 研究 内 容 及 目标 先 
择 或 构建 合适 的 模型 ,并 对 模型 进行 参数 估计 。 本 节 
将 对 目前 国内 外 AT 模型 及 其 改进 模型 进行 总 结 与 分 
析 。 
3.3.1 简单 的 AT 模型 M. Steyvers 等 于 2004 年 提 
出 了 从 文档 集中 挖掘 作者 与 主题 关联 的 方法 , 即 作 者 
主题 模型 ,通过 加 入 作者 元 素 ,同时 对 主题 与 作者 进 
行 建 模 。 该 模型 将 分 析 对 象 的 作者 信息 引入 到 LDA 
模型 中 ,以 实现 词 .主题 ,作者 及 文档 间 的 语义 主题 关 


研究 ,如 何 得 到 作者 所 属 的 主题 随时 间 变 化 的 情况 已 
成 为 当前 研究 热点 。 基 于 时 间 因 素 的 改进 从 数据 时 间 
的 角度 可 以 进一步 细 化 为 两 类 :一 是 将 时 间 视 为 随机 
变量 ,进而 完成 连续 时 间 的 建 模 ;二 是 将 时 间 离 散 化 为 
一 系列 时 间 惟 ,对 离散 化 的 时 间 点 构建 动态 贝 叶 斯 网 
络 。 

e 连续 时 间 建 模 。2010 年 唐 杰 等 人 在 AT 模型 中 
加 入 时 间 这 一 连续 变量 ,提出 了 随时 间 变 化 的 作者 主 
题 模型 ( Author -Topic -Time model, ATT) 模型 ”1 。 该 模 
型 将 AT 模型 与 随时 间 变 化 的 话题 模型 Time over 
Time,TOT) 相 结合 ,文档 中 每 个 词 的 生成 由 主题 与 时 
间 两 个 属性 共同 决定 ,更 好 地 描述 了 作者 主题 在 不 同 
时 间 的 分 布 情况 。 

ATT 模型 为 连续 时 间 建 模 的 典型 代表 ,后 续 有 许 
多 有 关 时 间 因 素 的 作者 主题 挖 据 研究 是 基于 此 开展 
的 “-“ 。 通 过 考虑 主题 之 间 的 依赖 关系 .用户 兴趣 数 
据 的 稀 琉 性 等 问题 ,相继 提出 了 基于 隐 马 尔 可 夫 的 随 
时 间 变 化 的 作者 主题 模型 ( Hidden Markov. Author - 
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Time - Topic, HMATT) "融入 会 议 信息 的 随时 间 变 
化 的 作者 主题 模型 (Author Conference Topic Over 
Time, ACTOT) 5 等 模型 ,丰富 了 用 户 兴趣 矩阵 ,降低 
了 模型 困惑 度 。 

尽管 ATT 及 ACTOT 等 模型 相 比 于 AT 模型 ,考虑 
了 文本 的 时 间 信 息 ,以 表示 作者 主题 在 不 同时 间 的 分 
布 强度 ,但 上 述 模型 仍 存在 以 下 两 个 问题 :第 一 ,模型 
在 每 个 时 间 窗 口内 主题 数 是 固定 的 ,因此 只 能 揭示 主 
题 强度 的 变化 ,而 忽略 了 主题 内 容 的 变化 5 ;第 二 ,对 
于 一 些 随 时 间 变 化 较为 频繁 .规模 较 大 的 文档 集 , 模 型 
消耗 大 量 计算 及 内 存 资源 。 

。 离散 化 时 间 建 模 。 针 对 ATT 模型 无 法 实现 对 
动态 数据 的 分 析 及 主题 内 容 追 踪 等 不 足 , 离 散 化 时 间 
建 模 的 思想 应 运 而 生 。 以 2015 年 杨 如 意 提 出 的 动态 
作者 主题 模型 (Dynamic Author Topic Model， 
DAB) “ -91 2018 年 余 传 明 等 提出 的 复合 主题 演化 模 
型 (》uthor Topic Time -Latent Dirichlet Allocation with 
AGEpr Ranking, ATT-LDA) "为 代表 ,该 类 模型 通常 
绪 谷 了 动态 主题 模型 (Dynamic Topic Model, DTM) 及 
ATTAR DAA ,将 获取 的 主题 离 衣 到 时 间 窗 ,使 其 
在 计算 复杂 度 和 应 用 场景 两 方面 有 较 大 优势 。 经 实 
验 通 明 该 类 模型 能 准确 描述 潜在 作者 主题 及 其 动态 
ab. 

会 (2) 基 于 有 监督 学 习 方法 的 改进 。 目 前 大 多 基于 
AP 阁 型 扩展 的 模型 均 为 无 监督 模型 ,通常 只 需要 输入 
GHE .主题 数目 等 数据 参数 ,模型 即 可 实现 自动 学 
习 志 然而 ,无 监督 学 习 方法 得 到 的 结果 通常 可 解释 性 
较 画 ,甚至 不 易 被 理解 。 针 对 该 问题 ,2015 年 H. Mou 
等 人 提出 了 有 监督 作者 主题 模型 ( Author Subject Top- 
ic, AST) ,通过 引入 有 监督 的 “subject” 层 来 对 文档 
进行 分 组 。 与 传统 的 AT 模型 相 比 ,该 类 模型 有 助 于 
将 单词 和 文档 聚 在 一 起 以 减少 噪声 。 

(3) 基于 元 数据 元 素 扩展 的 改进 。 引 入 更 为 丰 
8 .多 样 化 的 元 数据 元 素 ,将 传统 的 “作者 - 主题 "分 
布 转变 为 “其 他 元 数据 -作者 - 主题" 分布, 进一步 拓 
宽 AT 模型 可 揭示 的 内 容 范 围 。 基 于 元 数据 扩展 的 改 
进 目 前 主要 分 为 以 下 4 种 :融入 社区 元 素 ,如 2012 
年 C. S. Li 等 提出 的 “作者 - 主题 -社区 ”模型 (Author 
-Topic -Community , ATC ) aeon] ,该 类 模型 结合 社会 
网 络 分 析 ,根据 作者 兴趣 实现 作者 社区 发 现 ;@ 融 人 
会 议 元 素 , 如 2008 年 唐 杰 等 提出 的 融入 会 议 信 息 的 
模型 ( Author -Conference -Topic, ACT) 及 2011 4E Y. 
Ding 提出 的 ACTC ( Author -Conference Topic -Connec- 
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tion) f 9877, © Ri A. FH JP? 2688 ^8 JH 71 f E 2C 
3 00071 ,该 类 模型 可 以 更 好 地 应 用 于 个 性 化 推荐 等 
任务 中 ;人 由 融入 作者 引文 等 相关 元 素 , 其 中 主要 包括 
引文 .所属 期 刊 等 ”” ,使 得 模型 充分 利用 学 术 文档 
中 作者 和 引文 信息 ,对 文档 具有 较 高 的 作者 判别 和 
引文 文献 排序 能 

(4) 面 向 特定 任务 的 改进 。 为 了 让 AT 模型 满足 
和 村 定 领域 中 的 特定 任务 ,科研 人 员 提 出 了 面向 特定 任 
务 的 AT 模型 。 该 类 模型 目前 针对 的 数据 大 多 是 图 
像 。 其 中 ,最 具有 代表 性 的 是 通过 融入 地 理 信息 (Au- 
thor - related Geographical Topic Modeling, AGTM ) *' X 
多 光谱 遥感 图 像 的 颜色 、 形 状 特 征 ( Author — Genre 
Topic Model, AGTM) “对 区 域 类 别 进行 主题 标注 。 但 
如 何在 结合 地 理 信息 的 同时 使 用 更 优 的 概率 模型 来 处 
理 文档 信息 以 提升 图 像 类 别 标注 的 精准 度 仍 需 进一步 
研究 。 

上 文 所 介绍 的 4 类 扩展 模型 主要 是 针对 传统 AT 
模型 的 现 有 问题 ,从 不 同 角度 改进 而 成 的 。 图 3 对 各 
模型 的 扩展 模式 进行 总 结 归纳 ,主要 分 为 以 LDA 及 
AT 模型 为 基础 的 两 大 扩展 模式 ,其 中 , 实 线 箭 头 表 示 
由 箭 尾 一 侧 的 模型 改进 成 箭头 所 指 一 侧 的 模型 ,虚线 
箭头 表示 将 虚线 箭 尾 所 指 的 模型 与 其 作用 的 实 线 箭 尾 
模型 结合 ,进而 得 到 实 线 箭 头 所 指 的 模型 。 表 2 是 对 
上 文 所 介绍 的 4 类 扩展 AT 模型 的 汇总 ,同时 对 每 个 模 
型 的 优 缺点 等 信息 进行 分 析 。 

3.4 模型 评估 

衡量 结果 是 否 真实 揭示 数据 规律 以 及 相 比 于 已 有 
研究 是 否 更 为 优化 ,在 整个 实验 过 程 中 必 不 可 少 。 随 
着 科学 研究 的 不 断 推进 ,模型 评价 角度 更 为 全 面 。 经 
过 调研 发 现 ,针对 AT 模型 及 其 改进 的 研究 中 常用 的 
模型 评估 方法 主要 从 以 下 6 个 角度 开展 ,具体 模型 评 
价 指标 分 类 见 图 4。 

3.4.1 模型 泛 化 能 力 ”通俗 来 讲 是 指 训练 后 的 模型 
对 未 知 数据 的 预测 能 力 ,在 实际 操作 中 ,通过 测试 误差 
来 量化 模型 的 汉化 能 力 。 目 前 衡量 模型 泛 化 能 力 最 常 
用 的 度量 指标 是 困惑 度 (perplexity ) 。 在 本 文 所 构建 的 
数据 集中 ,Q.Q. Yang 及 上. Poddar 等 利用 对 该 指标 对 
模型 泛 化 能 力 进 行 量化 评估 ,实验 中 困惑 度 表 示 主 题 
词 预 测 的 难 易 程 度 , 值 越 低 说 明 泛 化 能 力 越 好 ”i。 
此 外 ,万 路 康 等 利用 PG n( Precision N) 对 模型 泛 化 
能 力 进 行 评估 ,用 以 检测 前 N 条 预测 结果 的 准确 
率 ” 。 在 实际 应 用 中 , 常 选 取 PO 5, PO 10, 及 P@20。 
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2011 N. Naveed 4&7) ATT 结合 作者 和 时 间 戳 信息 来 捕捉 用 户 兴 
趣 随时 间 变 化 的 潜在 主题 


时 
展 类 型 作者 模型 简单 描述 优点 "T 
JIZ 2005 A. Mecalum %75 TART ”结合 作者 ,接收 者 和 时 间 因 素 分 析 主 发 现 用 户 间 的 关系 没有 对 时 间 眉 间 的 动态 关系 建 模 
amit 题 
2010 — 唐 术 等 [91 — HMATT 可 建立 主题 之 问 相互 依存 关系 实现 作者 - 主题 基于 时 间 的 “没有 对 时 间 自问 的 动态 关系 建 借 
演化 分 析 


2013 — 史 庆 伟 等 [36] AToT ”引入 作者 和 时 间 元 数据 ,描述 主题 演 考虑 了 文本 的 时 间 信 息 ,可 每 个 时 间 窗 内 的 主题 数 是 固定 
化 规律 及 作者 研究 兴趣 的 变迁 以 表示 主题 在 不 同时 刻 的 分 的 ,只 能 揭示 主题 强度 的 变化 趋 
布 强度 势 ,忽略 了 主题 内 容 的 变化 
2014 ” 刘 智 超 等 .3] ”ACTOT ”根据 用 户 评分 的 论文 内 容 、 期 刊 会 议 及 可 以 准确 地 对 研究 人 员 的 兴 时 间 复 杂 度 较 高 
发 表 时 间 等 信息 对 用 户 兴趣 进行 建 模 ， 趣 进行 建 模 


以 更 加 准确 地 描述 用 户 兴 趣 特征 


2015 杨 如 意 等 [6-9] — DAP — 既 考虑 了 时 间 因 素 作为 内 因 对 于 主题 在 应 用 场景 和 计算 复杂 度 两 文档 主题 服从 多 项 分 布 , 且 不 同 
变化 的 影响 ,又 把 握 了 数据 集 整体 的 个 方面 有 所 提升 主题 间 具 备 弱 相 关 性 , 这 与 实际 
主题 内 容 语 料 不 是 很 符合 

2017 REMA] ”复合 主题 结合 ATT 与 LDA-Author Ranking 两 者 提升 了 作者 -主题 演化 结果 未 考虑 权重 对 作者 题 强 度 变化 的 

演化 模型 优点 影响 
基于 有 监督 学 习 2015 H.Mou 等 人 [4] AST 不 同 主题 分 布下 的 作者 及 文档 共享 主 能 够 有 效 地 捕捉 主题 类 ,有 效 时 间 复 杂 度 较 高 
方法 的 改进 题 信息 地 区 分 主题 ,为 专家 的 研究 兴 
BEBE ABIT EARS 
基于 元 数据 元 素 2008 J. Tang 等 13] ACT 增加 会 议 主题 信息 1 入 会 议 信息 ,更 为 精准 地 只 能 生成 每 个 主题 的 作者 概率 分 
HEBES 是 升 了 作者 - 主题 的 匹配 程 布 ,但 同一 主题 下 作者 可 能 不 同 
度 属 一 个 社区 , 仍 不 能 解决 社区 与 
主题 之 间 的 交互 问题 


2012 — J. Wang 45 58] ACTC ”增加 会 议 主题 及 主题 间 潜 在 的 映射 信 动态 设置 对 应 于 不 同 会 议 的 设置 主题 数量 的 操作 较 复 杂 
息 主题 数量 


C. S. Li 等 [的 ] ATC 增加 作者 - 主题 ,作者 -社区 的 映射 模型 结果 较 现 有 模型 有 所 提 模型 在 一 定 程度 上 利用 引文 信息 


信息 升 ,如 作者 兴趣 分 析 和 作者 定义 合作 关系 ,使 得 社区 构建 
社区 发 现 成 员 组 成 不 够 精准 


H 


2013 — J. Yang 等 [73] DMF ”结合 PMEF 与 ATM 算法 对 用 户 评分 及 可 结合 用 户 兴趣 及 文本 潜在 没有 明确 目标 函数 , 且 各 通路 权 
主题 词 矩 阵 进行 分 解 特点 进行 精准 推荐 重 靠 从 代 前 后 各 通路 消息 差 值 累 


加 来 估计 ,缺乏 理论 证 明 
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( 续 表 2) 
E 时 间 ur m T : R 
扩展 类 型 (年 ) 作者 模型 简单 描述 优点 缺点 
元 晓 青 等 161] ULLDA ”作者 对 应 的 主题 分 布 不 再 只 是 由 作者 结合 微 博 数据 特点 ,使 结果 通过 经 验 确定 主题 数目 , 缺乏 考 
一 人 决定 ,而 是 根据 微 博 的 特点 ,使 相 更 为 精准 证 
关 人 员 的 主题 分 布 也 能 影响 该 分 布 
20014 ” 江 雨 燕 等 174] ART 以 USTM ( Upstream. Supervised Topic 将 引文 信息 及 有 监督 模型 融 引用 信息 涉及 一 些 无 效 引 用 等 干 
Model) fil DSTMDSTM ( Downstream Su- 和 人 其 中 扰 
pervised Topic Model ) 方 式 构建 了 文档 
作者 和 引用 文献 的 生成 过 程 
Z. Yang 等 175] ACVT “对 作者 论文 ,被 引 作者 等 信息 综合 建 包含 更 多 有 价值 的 上 下 文 信 
模 B 
M. Morchid #132] TSC ”通过 分 析 TSC 的 网 络 结构 ,揭示 主题 考虑 了 作者 协作 模式 参数 设 定 依据 有 待 验证 
上 的 协作 模式 
2015 — 王 永 贵 等 [44] UF_AT ” 微 博 特性 与 AT 模型 结合 主题 词 更 加 准确 ,关联 性 更 影响 微 博 用 户 兴趣 的 因素 考虑 不 
强 够 全 面 
2016 J. K. Ha 等 [39] AJT 兼顾 作者 与 期 刊 主题 进行 分 析 考虑 了 相 邻 引文 句 之 间 的 上 传统 的 基于 频率 的 引文 分 析 方 法 
- 下 文 关系 适用 性 有 待 验证 
面 岛 特定 任务 2012 罗杰斯 [30] ARGT “引入 地 理 区 域 的 概念 ,得 到 主题 - 区 适用 于 图 像 数据 ,拓宽 了 模 在 文档 层面 上 没有 提出 好 的 概率 
人 SN 改进 域 分 布 型 适用 领域 模型 
CD W.luo45[4) — AGT — 采用 了 -种 适用 于 多 光谱 到 感 图 像 的 提高 了 变化 区 域 类 别 标注 的 缺少 适用 的 概率 图 模型 
LO 基于 颜色 和 形状 特征 的 特征 描述 符 ， 精 度 
e 结合 AT 模型 ,实现 变化 区 域 类 别 标注 
OO i " SEA 
E SE xam 3.4.4 有 效 性 有效 性 是 模型 输出 
n 结构 与 真实 生命 系统 的 特性 符合 程度 
E nu 吉 构 与 和 的 特性 符合 程度 
N P@n 的 定量 表示 。C. S. [i 等 人 曾 利 用 灵 
准确 率 - 
Hr itivi | E JEU x y f 
E PMI {Ë m 敏 度 ( sensitivity ) 刻画 模型 对 单位 待 
N xy] sau 评价 变量 变化 所 致 的 响应 量变 化 程 
2 KL 距离 | yri9-"71. Wk zb, W. Buntine 对 H. 
相似 度 
C — 相关 性 AUC M. Wallach 的 left -to — right 算法 进行 
— xk ares 改进 ,提出 了 一 种 新 型 估计 文档 集合 
e : : 的 似 然 方法 ,使 得 模型 评价 更 具有 公 
图 4 模型 评价 指标 B 
© JH. 
3.4.2 话题 可 解释 性 ”通过 话题 中 单词 分 布 的 语义 “3.4.5 正确 性 正确 性 包含 查 全 率 、 查 准 率 及 相关 综 


相关 性 进行 分 析 , 但 实验 证 明 ,此 评价 角度 具有 和 较 大 主 
观 性 。 为 了 相对 客观 地 对 其 进行 评价 ,有 学 者 借助 计 
算 K. M. Schneider 等 提出 的 PMI (pointwise mutual in- 
formation ) 值 进行 量化 ,PMI 值 常用 以 衡量 一 对 事件 共 
同 出 现 的 概率 ” 。 

3.4.3 ”高 效 性 ”目前 大 多 数 研究 人 员 通 过 复杂 度 对 
模型 的 高 效 性 进行 评估 。 复 杂 度 具体 指 算法 对 应 的 
程序 运行 时 所 需 资 源 , 可 进一步 分 为 时 间 复 杂 度 和 空 
间 复 杂 度 。 但 基于 复杂 度 的 评估 方法 无 法 避免 的 问题 
在 于 模型 复杂 度 低 并 不 能 代表 该 模型 在 语义 层面 可 以 
得 到 良好 的 主题 词 ,因此 ,H. M. Wallach 等 在 已 有 评估 
方法 的 基础 上 ,提出 了 包含 有 效 性 及 正确 性 在 内 的 两 
种 不 同 评价 维度 。 
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合 评 价 指标 。 在 本 文 构建 的 数据 集中 , 王 永 贵 等 借助 
准确 率 (precision) ,召回 率 (recall) 及 结合 准确 率 P 和 
召回 率 R 的 综合 评价 指标 Fl - Measure 对 模型 正确 性 
进行 定量 分 析 “。 此 外 ,还 有 XX. Xie 等 利用 AUC( Ar- 
ea Under the ROC Curve) 指标 衡量 模型 正确 性 ,其 中 ， 
ROC 曲线 ( 纵 轴 :真正 例 率 TPR; 横 轴 : 假 正 例 率 FPR) 
下 的 面积 越 大 表示 模型 越 精确 ;J. Wang 等 引用 平均 
准确 率 这 一 概念 (Mean Average Precison , MAP ) 评价 模 
型 正确 性 ,其 中 ,单个 主题 的 平均 准确 率 是 每 篇 相关 文 
档 检索 后 准确 率 的 平均 值 ™ 。 

3.4.6 ”相关 性 ”该 评价 角度 在 实际 操作 中 通常 借助 
一 些 具体 任务 进而 间接 完成 对 模型 的 评估 ,具体 而 言 
是 利用 距离 这 一 可 量化 的 概念 反映 文档 或 作者 间 主 题 
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相似 性 等 。 如 在 本 文 所 构建 的 数据 集中 ,C. S. Li 等 借 
助 KL RES ( Kullback - Leibler Divergence ) " , T. Wang 
等 借助 相似 度 (Similarity) “衡量 相同 空间 内 两 个 作者 
主题 概率 分 布 的 差异 情况 ;此 外 ,还 有 T. Zhang 等 利用 
斯 皮尔 曼 等 级 (Spearman Rank ) 相关 系数 及 皮尔 逊 相 
关系 数 (Pearson Correlation Coefficients ) 对 相关 性 进行 
评估 。 其 中 ,斯 皮尔 曼 等 级 相关 系数 认为 如 果 数 据 
中 没有 重复 值 , 且 当 两 个 变量 完全 单调 相关 时 , 值 为 + 
1 或 -1; 而 皮尔 逊 相关 系数 的 取 值 范围 通常 在 [ -1， 
1] 之 间 。 

RER 6 大 类 评价 角度 外 ,人 研究 人 员 还 提出 一 些 
弹性 评价 方法 ,如 人 工 评价 “ 。 但 这 种 评价 方法 的 主 
观 性 较 强 , 仍 存 在 很 多 问题 。 


污 通 过 上 述 总 结 分 析 发 现 ,不 同 评价 角度 对 模型 稀 
则 重点 大 不 相同 ,而 科研 人 员 在 对 实验 进行 评估 
乱入 会 人 为 地 根据 程序 所 实现 的 任务 选取 相应 评价 
指标 ,使 得 不 同 模型 之 间 的 横向 比较 变 得 困难 。 同 时 ， 
现在 研究 表明 ,模型 在 特定 评价 指标 下 表现 良好 时 ,在 
其 矶 方面 的 性 能 可 能 落差 较 大 。 以 目前 常见 定量 评估 
排 坏 复杂 度 为 例 , 若 改进 模型 的 复杂 度 低 于 现 有 模型 ， 
即 过 明 改 进 模型 的 建 模 思 想 更 为 优化 。 但 正如 前 文 所 
担 , 沪 指标 存在 最 大 的 问题 是 复杂 度 的 高 低 并 不 能 代 
表 生 题词 挖掘 结果 的 好 坏 "; 。 因 此 ,促成 了 有 效 性 、 
正 漠 性 等 众多 评价 指标 的 应 运 而 生 , 尽 可 能 使 评价 更 
为 从 平 。 但 由 于 模型 的 应 用 领域 .时 间 切 片 划分 等 差 
异 E 堆 至 目前 ,模型 之 间 的 好 坏 判断 依旧 没有 统一 标 
n 
3.5 基于 AT 模型 的 应 用 

由 于 AT 模型 的 研究 不 断 深入 ,目前 已 被 广泛 应 
用 到 文本 挖掘 等 众多 领域 。 其 中 , 受 关注 较 多 的 领域 
包括 社交 媒体 分 析 ` 学 术 文献 以 及 社区 发 现 等 。 下 文 
将 重点 介绍 AT 模型 及 其 改进 方法 在 以 上 领域 中 的 应 
用 。 
3.5.1 社交 媒体 中 的 应 用 “ 随 着 互联 网 的 飞速 发 展 ， 
社交 媒体 也 随 之 兴起 。 微 博 及 Twitter 作为 新 媒体 的 
代表 , 相 比 传统 文档 数据 而 言 ,其 数据 更 新 速度 快 , 且 
伴 有 网 络 用 语 ,不 够 规范 。 因 此 ,如 何 结合 社交 媒体 数 
据 的 特点 来 完成 数据 分 析 任务 是 目前 研究 热点 之 一 。 

早期 将 AT 模型 应 用 至 社交 媒体 数据 分 析 主要 是 
根据 数据 内 容 进 行 建 模 。 但 该 思想 忽略 了 社交 媒体 数 
据 极 强 的 实时 性 ,未 将 文本 内 容 与 时 态 相 结合 ,导致 模 


型 无 法 观察 主题 随时 间 的 变化 。 此 外 ,由 于 Twitter 中 
文本 内 容 长 度 过 短 ,使 得 模型 无 法 通过 无 监督 学 习 获 
得 较为 理想 的 主题 分 布 情况 。C. S. Li 等 提出 的 ATC 
( Author-Topic -Community ) 模型 解决 了 此 问题 ,同时 实 
现 了 作者 兴趣 及 其 社区 结构 的 同步 推断 ” 。 后 续 还 
有 基于 此 进行 用 户 兴趣 挖掘 ”“” ,特定 领域 微 博 账号 
蔡 取 "基于 用 户 兴 趣 的 微 博 推 荐 “” 等 研究 。 
3.5.2 学术 文 献 中 的 应 用 ”在 学 术 文 献 中 ,AT 模型 
最 具有 代表 性 的 应 用 便 是 通过 考虑 时 间 因 素 , 对 不 同 
时 间 段 “作者 - 主题 "对 应 分 布 予 以 揭示 ,深入 理解 前 
沿 交叉 学 科 带 头 人 的 主题 演化 过 程 及 发 展 趋 势 ,在 一 
定 程 度 上 揭示 主题 间 的 相互 影响 ,同时 在 预测 研究 趋 
势 方面 也 有 一 定 参 考 价值 。 此 外 , 由 于 学 术 文献 不 同 
于 博文 ,通常 会 附 有 参考 文献 .期 刊 会 议 等 信息 。 因 
此 ,关于 会 议 . 引 文 等 相关 元 素 的 融 人 也 陆续 引起 科研 
人 员 的 关注 。 如 Y. Tu 等 于 2010 年 提出 了 融入 引用 信 
息 的 模型 ( Citation -Author -Topic , CAT ) 52 ,该 模型 同时 
对 论文 作者 及 被 引用 的 作者 建 模 。 后 续 , 又 有 学 者 就 
作者 影响 力 的 问题 进行 了 延伸 思考 ”1。 

3.5.8. 数据 社区 中 的 应 用 目前 ,AT 模型 在 数据 社 
区 中 的 应 用 主要 包括 社区 发 现 及 推荐 系统 。 社 区 发 现 
根据 分 析 数 据 类 型 的 不 同 , 可 以 划分 为 社交 媒体 及 科 
研 合作 团队 两 种 类 型 。 利 用 社区 发 现 方法 可 以 有 效 地 
发 现 数据 结构 及 演化 过 程 , 有 助 于 科研 人 员 分 析 数据 
集中 存在 的 网 络 结构 及 其 性 质 , 进 而 了 解 整个 网 络 的 
变化 趋势 ,为 资源 搜索 .推荐 以 及 网 络 结构 优化 等 提供 
服务 '”。 同 样 ,推荐 系统 也 可 分 为 社交 媒体 及 科研 领 
域 两 类 数据 ,其 推荐 的 依据 均 为 用 户 / 作 者 的 兴趣 。 
3.5.4 ”其 他 ” 除 上 述 主 要 应 用 领域 外 ,还 有 一 些 根 据 
科研 人 员 具 体 实验 内 容 所 实现 的 特定 应 用 领域 。 如 图 
像 领域 的 自动 类 别 标注 ,该 类 实验 通常 选取 特定 分 辨 
率 的 图 像 及 视频 片段 ,实现 图 像 及 视频 的 主题 识别 , 较 
为 典型 的 实验 包括 挖掘 脑 认 知 功能 的 空间 对 应 关系 
等 ” ;此 外 ,还 有 对 邮件 数据 进行 分 析 , 通 过 提取 收 件 
人 邮件 主题 内容 .时 间 等 字段 ,实现 发 件 人 与 主题 、 
时 间 的 关联 等 。 


4 ”研究 不 足 与 发 展 趋势 

上 文 对 AT 模型 的 具体 应 用 进行 了 总 结 。 尽 管 AT 
模型 已 被 不 断 改进 ,但 由 于 需求 及 计算 机 技术 的 更 新 
选 代 , 仍 存在 一 些 不 足 ,具体 体现 在 以 下 4 个 方面 
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图 二 情报 三 作 


第 63 卷 第 7 期 2019 年 4 月 


ChinaXiv 合 作 期 刊 


(1) 技 术 层面 :社交 媒体 的 数据 规模 越 来 越 庞大 ， 
并 且 其 数据 具有 过 短 的 文本 长 度 、 快 速 的 更 新 速度 等 
特点 ,进而 在 短 时 间 内 产生 了 大 量 网 络 用 语 及 符号 语 
言 ,使 得 数据 的 噪声 增 大 、 上 下 文 信息 获取 不 足 。 上 述 
情况 的 产生 会 大 大 增加 AT 模型 处 理 数据 的 难度 , 导 
致 主题 识别 效果 无 法 达到 预期 。 

(2) 特 定 领域 内 方法 选择 层面 :AT 模型 初衷 是 对 
科技 文献 类 型 的 数据 进行 分 析 , 实 现 “ 作 者 - 主题 "的 
关联 ,以 揭示 特定 学 科 领 域内 的 某 些 发 展演 化 规律 , 且 
效果 较为 理想 。 但 在 后 期 应 用 中 发 现 ,AT 模型 已 在 社 
交 媒 体 乃 至 图 像 领 域 有 着 较为 广泛 的 应 用 ,而 在 图 书 
情报 领域 的 应 用 尚 不 成 熟 。 大 多 研究 更 注重 算法 改 
进 算法 性 能 提升 ,但 图 书 情报 领域 中 充分 应 用 AT 模 
型 及 其 改进 模型 进行 主题 发 现 等 相关 研究 的 相对 较 
惨 洲 别 是 国内 研究 仍 有 部 分 停留 在 应 用 计量 分 析 软 
件 的 层面 。 
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OGBETE : E AT 模型 应 用 于 科技 文献 
交加 数据 的 研究 中 ,大 部 分 实验 数据 来 自 于 语料库 或 
公开 数据 集 ,侧重 于 验证 模型 的 有 效 性 。 但 考虑 通过 
JGHRQ 中 国 科 学 院 分 区 以 及 特定 领域 内 权威 论文 会议 
党 做 体系 等 方法 , 尽 可 能 全 面 地 确定 领域 具有 代表 性 
DS E ,揭示 某 一 学 科 或 领域 演化 的 研究 还 不 够 。 
4) 缺少 模型 优 劣 性 评价 体系 :科研 人 员 通 常 根 
担 经 验 或 任务 特性 选择 相关 评价 指标 ,但 所 选 指标 能 
否 雷 观 地 衡量 模型 优 劣 性 依旧 是 AT 模型 领域 所 面临 
的 党 要 问题 之 一 ,如 何 改进 或 提出 新 的 评价 指标 将 成 
ARRETE o 
综 上 所 述 , 未 来 AT 模型 的 相关 研究 可 以 向 性 能 
优化 .模型 评价 指标 体系 的 规范 完善 以 及 在 图 书 情报 
领域 的 深度 应 用 3 个 方面 发 展 :性 能 优化 体现 在 高 效 
的 训练 算法 ,减少 时 间或 空间 复杂 度 等 ;模型 评价 体系 
具体 可 根据 任务 性 质 等 角度 进行 划分 ,结合 任务 性 质 
与 评价 指标 的 原理 , 尽 可 能 在 领域 内 对 于 不 同 任务 的 
模型 评价 方法 达成 一 致 ;在 图 书 情报 领域 的 进一步 应 
用 将 是 一 大 发 展 趋势 ,如 挖 气 用 户 兴趣 特征 ,实现 学 者 
画像 .图 书馆 或 学 者 个 性 化 与 精准 服务 ,或 对 前 沿 交叉 
学 科 的 科研 合作 及 主题 演化 进行 研究 以 对 管理 决策 部 
门 起 到 支持 作用 等 。 
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Abstract; | Purpose/significance] Author-Topic model, as a new probabilistic model which has a high degree of at- 
tention in computer science, has been widely applied in text mining, natural language processing and other fields in recent 
years. This paper analyzes the ideas and applications of AT model and its improved models to grasp its research status and 
provide reference and ideas for researchers in computer science, library and information science or some other related 
fields. | Method/process | Using data sets on Web of Science Core Collection, DBLP and CNKI (China Academic Jour- 
nals Full-text Database) , a literature collection on Author-Topic model and its improved models is constructed through the 
establishment of retrieval rules, data de-duplication, artificial judgment and other operations. This paper summarizes the 
existing research based on literature analysis method from the perspective of the application process of the model. [ Re- 
sult/conclusion | The results show that the existing related research has formed a comparatively complete analysis process 
and the improvement angle and application area of the models are increasingly diversified. However, some problems, such 
as performance optimization, standardization and perfection and further application in the field of library and information 
science, still need to be explored in depth. 
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